"""
机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测。

监督学习(supervised learning)（预测）
定义：输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归），或是输出是有限个离散值（称作分类）。
分类 k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
回归 线性回归、岭回归


无监督学习(unsupervised learning)
定义：输入数据是由输入特征值所组成。
聚类 k-means

机器学习开发流程：
    原始数据(用户产生的数据，商业数据共享)
    特征工程（特征提取，数据清洗）
    训练模型
    模型评估（准备一些测试数据进行评估）
    模型应用
    
    
SK-learn
    datasets.load_*()
        获取小规模数据集，数据包含在datasets里
    datasets.fetch_*(data_home=None)

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已


特征抽取：
     将任意数据（如文本或图像）转换为可用于机器学习的数字特征

     对于特征当中存在类别信息的我们都会做one-hot编码处理
"""
